【セッションレポート】 機械学習とネットワークの切っても切れない話(AWS-19) #AWSSummit
こんにちは。サービス開発室の武田です。
2024年6月20日〜21日、AWS Summit Japanが開催されました。7月5日まではオンデマンド配信をしているため、気になるセッションなどがあればぜひ忘れずに視聴することをお勧めします。
今回は「機械学習とネットワークの切っても切れない話~AWS の次世代ネットワークインフラストラクチャの変革~」を視聴しましたのでレポートをお届けします。
スピーカー
- 藤井 博貴
- アマゾン ウェブ サービス ジャパン合同会社 技術支援本部 シニアネットワークスペシャリストテクニカルアカウントマネージャー
セッション概要
AWS はお客様のビジネスニーズやサービス要件を中心に、クラウドサービスの開発と改善を日々行っています。このセッションでは、最新の AWS ネットワーキングイノベーションの中核となる、新しいコントロールプレーンとネットワーク設計の動機、システムの特徴について詳しく説明します。さらに、この次世代 AWS ネットワークインフラストラクチャが、生成AIブームを支えている機械学習ワークロードの基盤にどのような恩恵をもたらすかについても解説します。カスタムハードウェアやソフトウェアの設計・構築から、回復力のあるネットワーク運用システムの開発まで、AWS ネットワークが様々なワークロードに対応するための取り組みについてご紹介します。
レポート
このセッションはAWS re:Invent 2023のセッション「AWS journey toward intent-driven network infrastructure (NET401)」の再演。AWS Summit Japan向けにローカライズ並びにカスタマイズしたもの。
生成AIのテクノロジスタックはアプリケーション、ツール、インフラの3階層。このセッションではインフラの、さらに EC2 UltraClusters を取り上げる。EC2 UltraClustersは機械学習ワークロード向けの次世代コンピュータ群。
アジェンダ
- AWSネットワークインフラストラクチャの特徴
- 次世代ネットワークアーキテクチャの変革
- ユースケースのご紹介 EC2 UltraClusters
- 新しいカスタムルーティングプロトコルの誕生
- まとめ
AWSネットワークインフラストラクチャの特徴
- AWSはハードウェアおよびコンポーネントを独自開発している
- 物理的なネットワークを最適化するため光トランシーバーのファームウェア更新を頻繁に行っている
- 32個のトランシーバーを同時に更新できる
- 長距離ファイバー用のトランシーバーやより多くの電力を消費する方は通気口が多くなっている
- ソフトウェアスタックも独自開発している
- 特に時間をかけて開発しているのがルーティングプロトコル
次世代ネットワークアーキテクチャの変革
- AWSの次世代ネットワークに求められる目標
- 可用性
- 一貫性
- 確認/承認
- スケーラブル
- 運用性
- それぞれの課題
- より複雑なネットワーク
- より多くの製品
- より厳しい制約
- より多くのロケーション
- より多くの人々
- データセンターチームのテネッツ
- シンプリティスケール
- 低い複雑さと高いイノベーション
- その状態を目指すためにインテントドリブンネットワークを採用
- インテント(意図)とは、私たちがネットワークに期待するあらゆる動作
- 運用モデルの変化
- 従来:各機器に対して設定値を変更する作業を行う
- インテント:インテントシステムに事前に定義し、ネットワーク全体に適用できる
- インテントの例
- AZ内の任意の2つのホスト間トラフィックをAZ内で完結する
- 指定したリンクには、ローカルトラフィック以外のトラフィックを伝送しない
- 一部ネットワークセグメントがテスト状態であることを認識する
- インテントの利点
- 一貫性
- 可視性
- 早期テスト
- 運用性
ユースケースのご紹介 EC2 UltraClusters
- 機械学習ワークロードによるITインフラへの負荷
- 新しいAIの登場で必要な計算力は加速度的に増加
- 3〜4ヶ月ごとに倍増
- HPC/MLインスタンスのアップリンクの帯域幅も増加している
- 2020年には400Gbpsだったが、2023年には3.2Tbps
- AWSはCLOSネットワークを採用している
- STP(スパニングツリープロトコル)のように一部の経路を閉鎖することで同時にすべて利用できる
- スイッチがツリー状になっており、下層からトップオブラック(ToR)、リーフ、スパインとなる
- 当初はMLワークロードも、ほかと同じCLOSネットワーク上で稼働させていた
- 輻輳、パフォーマンス、スケーリングの限界といった課題に直面
- これらの課題を解決するために、EC2 UltraClusters 1.0が作られた
- EC2 UltraClusters 1.0
- 2020年にリリースされたP4インスタンスで構成
- クラスター内に約4000基のGPUがある
- 帯域幅は400Gbps
- スケール、パフォーマンス、可用性といった新たな課題に直面
- これらの課題を解決するために、EC2 UltraClusters 2.0が作られた
- EC2 UltraClusters 2.0
- P5インスタンスをベース
- 新たな物理設計を採用し、よりフラットで大規模なネットワークを構築
- クラスター全体の帯域幅を約10倍
- 新たなSIDRプロトコルにより安全で迅速なネットワーク収束を実現
- v1.0 vs v2.0
- 1.0は3階層。ホップカウント数は7
- 2.0は2階層。ホップカウント数は5
- トポロジーの課題
- あるリンクがダウンしてもパフォーマンスを落とせない
- バックプレーン+ToRに対してコントロールプレーンドメインが必要
- グレー障害でも1秒以下の超高速コンバージェンスが求められる
- これを達成するために新しいプロトコルが必要だった
新しいカスタムルーティングプロトコルの誕生
- SIDR - Scalable Intent-Driven Routing
- SIDRの目標
- シングルコントロールプレーンドメイン
- 約7000台の機器管理なため階層制御が必要
- 完全性
- SLA遵守
- eBGPを用いた機器同士のやり取り(既存機器との相互接続)
- コントロールプレーンの選択肢
- 分散型 vs 集中型
- 分散型:静的に安定、影響範囲が小さい
- 集中型:高い可視性、決定論的
- AWSとしてはハイブリッドしたい
- SIDRコンポーネント
- 機器上でSIDRデーモンを実行し、機器同士を接続
- 機器同士の集合体のことをSIDRファブリックと呼ぶ
- SIDRファブリックへの変更はSIDRスーパーバイザーを通す
- SIDRファブリック内にはSIDRファブリックコントローラー(SFC)が存在し、スーパーバイザーと通信する
- SIDRのメリット
- 規範的
- 決定論的
- セキュリティ
- 自動推論
まとめ
- お客様のニーズを明確化し、逆算して取り組み、次世代のネットワークインフラストラクチャを設計・構築
- 機械学習ワークロードに適した次世代コンピューティング群の差別化
- 独自のコントロールプロトコルを用いた、インテントドリブンネットワークの実装
最後に
大規模なネットワークを構築し制御するために、AWSがどう課題を認識し解決したのか分かるセッションでした。インテントドリブンネットワークは2019年前後から目にするようになったワードのようです。おそらく当時見たと思われるんですが、よく知りませんでした。またEC2 UltraClusters 1.0のニュースは当時見た記憶がありました。
生成AIの登場でインフラに求められる規模やパフォーマンスは今後も高くなっていくでしょう。AWSではそうした大規模なネットワークでも安定して運用していけるようさまざまな工夫がされていることがわかりました。